Generación de subtítulos de voz en la Nvidia Jetson
Introducción
Hoy en día, tenemos muchas reuniones diariamente, pero parte del contenido de las reuniones no está destinado a ser publicado. Enviar contenido de la reunión a la nube para grabar y devolver subtítulos puede representar una amenaza importante para la privacidad de la reunión. Y lo más importante es que perderás el contenido de tu reunión si hay problemas de conexión a Internet.

Y aquí te presentamos Generación de subtítulos de voz en la Jetson, que puede ofrecer servicios de voz a subtítulos en tiempo real y al mismo tiempo evitar la fuga de información en Internet. El contenido de la reunión se puede transcribir y mostrar en pantallas utilizando un modelo de IA en forma de subtítulos, lo que puede proteger la privacidad de la reunión y reducir la carga de trabajo computacional durante la reunión.
Configuración de Hardware
- reComputer (U otros dispositivos potenciados por la plataforma Jetson)
- reSpeaker (Or other USB interface microphones)
- Conexión de Hardware
Preparar el entorno de ejecución
Paso 1. Instala Riva ASR Server:
Consulta esta wiki para instalar Riva ASR Server.
En tu terminal (Ctrl+Alt+T), ingresa sudo docker ps
y verás algo como lo siguiente, eso significa que has terminado el primer paso.
Paso 2. Instala flask:
Abre la terminal (Ctrl+Alt+T
) y usa el siguiente comando para instalar flask:
pip3 install flask
python3 -c 'import flask; print(flask.__version__)
Si obtienes algo como lo siguiente, significa que has finalizado este paso.
Paso 3. Actualizar pip setup tools wheel:
# riva client
git clone --depth=1 --recursive https://github.com/nvidia-riva/python-clients
cd python-clients
sudo pip3 install --upgrade pip setuptools wheel
pip3 install --no-cache-dir --verbose -r requirements.txt
python3 setup.py --verbose bdist_wheel
pip3 install --no-cache-dir --verbose dist/nvidia_riva_client*.whl
python3 -c 'import riva.client; print(riva.client.__version__)'
En tu terminal (Ctrl+Alt+T), ingresa pip --version
y verás algo como lo siguiente, significa que terminaste de actualizar pip.
En tu terminal (Ctrl+Alt+T), ingresa python3 -c 'import setuptools; print(setuptools.__version__)
si obtienes algo como lo siguiente, significa que tienes las herramientas de configuración actualizadas.
En tu terminal (Ctrl+Alt+T), ingresa wheel version
y verás algo como lo siguiente, significa que terminaste de actualizar wheel.
Paso 4. Instala pyaudio:
# pyaudio
sudo apt-get install -y --no-install-recommends python3-pyaudio
python3 -c 'import pyaudio; print(pyaudio.__version__)'
Si tu terminal muestra algo como lo siguiente, has terminado el último paso, ¡felicidades!
Corre el sistema
git clone https://github.com/Seeed-Projects/Real-time-Subtitle-Recorder-on-Jetson.git
cd Real-time-Subtitle-Recorder-on-Jetson
python3 recorder.py
Perspectivas del proyecto
En este proyecto, utilizamos el Servidor Riva ASR para capturar datos de la entrada del micrófono en tiempo real y mostrarlos en una página web. En el futuro agregaremos más aplicaciones como traducir un idioma a otro, teniendo una velocidad de respuesta más rápida.